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摘 E: 目前 基于 预 训练 语言 模型 (Pre-tained Language Model, PLM) 的 命名 实体 识别 的 研究 在 面 对 农 业 领 域 存 


在 的 实体 命名 方式 繁杂 、 实 体 边界 模糊 等 问题 时 ， 仅 使 用 PLM 最 后 一 层 表示 输出 ， 


且 均 从 外 部 引入 知识 或 操作 对 


实体 表示 进行 增强 ,忽视 内 部 各 层 本 身 蕴 含 语言 不 同 层次 的 丰富 信息 。 为 解决 上 述 问 题 ， 


积 网 络 的 命名 实体 识别 方法 。 该 方法 首先 存储 自然 句子 ， 


提出 一 种 基于 弟 进 式 卷 
通过 PLM 后 得 到 的 每 层 输出 表示 ; 其 次 以 递 进 式 卷 积 作 


为 全 层 信息 的 特征 提取 手段 ， 


对 储存 的 模型 中 间 层 输出 表示 依次 卷 积 。 模 型 将 注 


输出 ， 


而 有 人 研究 表明 靠近 输入 的 模型 层 输 出 的 句子 舱 入 包含 更 多 的 诸如 短语 、 词 组 等 粗 粒度 信息 ， 对 寺 


basil} 


在 全 层 信息 ， 包 括 被 忽略 的 浅 层 
边界 模糊 


的 农业 命名 实体 识别 ， 更 关键 的 词组 界定 信息 或 许 就 隐 含 在 这 些 被 忽略 的 浅 层 租 入 中 ， 可 为 农业 领域 存在 的 命名 


实体 识别 问题 提供 帮助 。 无 需 外 部 信息 的 引入 ， 充 分 利 


j 已 使 用 的 计算 力 得 到 的 结果 就 能 增强 句子 的 表示 衣 人 ; 


最 终 通过 条 件 随 机 场 (Conditional Random Field, CRF) 模型 生成 全 局 最 优 序列 。 在 构建 的 包含 农作物 品种 、 病 


害 、 虫 全 
征 模型 (Bidirectional Encoder Representation from Transformers, 
现 , 其 


力 ， 在 命名 实体 识别 任务 上 具有 优势 。 


甫 和 农药 4 类 农业 实体 的 农业 数据 集 上 ， 所 提 方 法 的 综合 性 指标 下 值 相 较 于 基于 Transformer 的 双向 编码 表 


BERT) 提升 3.61%， 在 公开 数据 集 上 也 有 较 好 表 


中 在 数据 集 MSRA E F {AGE FT 94.96% ， 说 明基 于 递 进 式 的 卷 积 网 络 能 够 增强 模型 对 自然 语言 的 表示 能 


关键 词 : 农业 命名 实体 识别 ; 
中 图 分 类 号 : TP391.1 


z 
2023, 5(1): 122-131. 


预 训 练 语言 模型 ， 卷 积 网 络 ; 表示 聚合 ; 深度 学 习 
文献 标志 码 : A 


文章 编号 : SA202303001 


j 格 式 : 计 洁 , 金 洲 , 王 颂 敬 , 刘海 燕 , 李 志 远 . 基于 递 进 式 卷 积 网 络 的 农业 命名 实体 识别 方法 加 . 智慧 农业 (中 英文 )， 


JI Jie, JIN Zhou, WANG Rujing, LIU Haiyan, LI Zhiyuan. Progressive convolutional net based method for agricultural 
named entity recognition[J]. Smart Agriculture, 2023, 5(1): 122-131. 


1 引 言 


随 着 农业 信息 化 水 平 的 提高 ， 网 络 中 的 农业 数 
据 也 以 指数 规模 增长 ， 利 用 这 些 数据 可 以 对 知识 问 
答 、 知 识 图 谱 构建 等 农业 知识 服务 进行 研究 。 在 非 
结构 化 文本 占 大 多 数 的 农业 数据 中 识别 出 有 意义 的 
和 名词 或 短语 并 加 以 归 类 ， 如 农作物 品种 、 病 害 、 虫 
害 和 农药 名 称 等 ， 即 农业 命名 实体 识别 ， 是 上 述 知 
识 服 务 的 关键 性 环节 ， 也 是 后 续 获 取 高 质量 的 语义 
知识 、 进 行 农业 信息 抽取 与 语义 检索 的 支撑 。 提 升 
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命名 实体 识别 (Named Entity Recognition, NER) 
的 准确 率 可 以 有 效 地 为 农业 领域 进行 知识 服务 ， 让 
农业 决策 者 、 生 产 经 营 者 及 科研 人 员 及 时 准确 地 获 
取 到 覆盖 完整 、 高 度 相关 的 信息 ， 提 升 农业 整体 发 
展 水 平 。 

预 训练 的 出 现 给 自然 语言 处 理 带 来 新 的 生 
机 “"”， 现 较 有 效 的 命名 实体 识别 方法 均 基 于 预 训 
练 语言 模型 实现 。 特 别 地 ， 基 于 Transformer 的 双 问 
编码 表征 


from Transformers, 


(Bidirectional Encoder Representation 
BERT) 模型 ” 近 些 年 被 广泛 
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应 用 到 开放 领域 和 垂直 领域 的 命名 实体 识别 中 。 
BERT 模 型 是 由 多 层 Transformer ” 堆 释 而 成 的 深度 
模型 ， 具 有 学 习 上 下 文 信息 的 编码 能 力 。 这 些 语 言 
模型 利用 注意 力 机 制 学 习 上 下 文 信息 ， 将 自然 语言 
转换 为 语义 信息 丰富 的 句子 谍 入 。 利 用 这 种 特性 ， 
杨 味 和 董 文 永 ” 提出 使 用 BERT 来 优化 传统 的 双向 
门 控 循 环 单元 + 条 件 随机 场 (Bidirectional Gating 
Recurrent Unit + Conditional Random Field , BiG- 
RU + CRF) 方法 ， 实 现 中 文 命 名 实体 识别 。Gan 
等 “将 BERT 结 合 双向 长 短期 记忆 网 络 (Bi-direc- 
tional Long Short-Term Memory，BiLSTM) 和 条 件 
随机 场 (Conditional Random Field, CRF), Gao 
等 ”" 则 将 此 种 框架 结合 成 中 文 命 名 实体 识别 算法 
模型 ， 应 用 于 CCKS2020 电子 病历 数据 集 的 处 理 。 
Chang 等 同时 使 用 BiLSTM 和 迭代 膨胀 卷 积 神经 
网 络 (Iterated Dilated Convolutional Neural Net- 
works, IDCNN) XAJ TEA MOTIE ER, 
PEPE REITA, IRER HE TT ERAT ER 
Ao Lit”) BERTAS ASH BSAA, Kie 
统 的 lattice 结 构 展 开 为 平面 结构 。 另 一 方面 ， 一 些 
工作 关注 于 如 何 从 模型 输入 端 增强 句子 中 实体 之 间 
的 关联 性 。 静 天 根 等 '" 提出 了 基于 关联 记忆 网 络 
的 中 文 命名 实体 识别 方法 。Wang 等 "提出 将 搜索 
引擎 查询 获得 的 与 输入 句子 匹配 度 较 高 的 文本 和 输 
入 句子 一 起 经 过 预 训练 语言 模型 获得 和 鹏 和 信 ， 实 现实 
体 表 示 增 强 的 效果 。Nie 等 “提出 利用 键 值 记忆 网 
络 进行 信息 编码 。 

在 农业 领域 ,存在 实体 名 称 组 成 繁杂 、 长 度 较 
长 '、 词 语 边 界 模糊 、 军 见 词 识别 率 低 等 问题 “。 
但 上 述 的 命名 识别 方法 都 侧重 于 引入 外 部 知识 或 者 
操作 来 增强 句子 特征 ， 以 增加 下 游 模 型 复杂 度 来 换 
取 精 度 的 提升 ， 对 增强 信息 进行 舍 近 求 远 的 操作 ; 
同时 在 对 齐 外 部 引入 数据 时 使 得 模型 通用 性 较 差 。 
而 相关 研究 表明 | BERT 每 一 层 能 够 学 习 到 不 
同 维度 的 语言 学 信息 : 靠近 输入 的 Transformer 层 输 
出 的 句子 诅 入 包含 更 多 的 诸如 短语 、 词 组 等 信息 ; 
更 深 的 编码 层 会 偏向 句子 的 语义 信息 。 对 于 农业 命 
名 实体 识别 而 言 ， 短 语 、 句 法 等 更 粗 粒度 的 信息 可 


别 的 浅 层 信息 。 例 如 ， 关 于 农业 知识 图 谱 问 答 中 ， 
用 户 问 句 往往 较为 简短 ， 拥 有 典型 句子 成 分 。 如 用 
户 问 名 “小 麦 白粉 病 会 发 生 于 哪些 作物 上 ?” 中 ， 
“小 麦 ” 和 “白粉 病 ” 都 可 以 视 为 独立 的 实体 ， 而 
在 农业 领域 中 理解 此 问 句 时 ， 更 希望 得 到 “小 麦 白 
粉 病 ” 这 一 完整 的 命名 实体 。 因 此 ， 对 于 农业 知识 
图 谱 问 答 中 的 命名 实体 识别 任务 来 说 ， 利 用 粗 粒 度 
的 语言 信息 会 更 好 地 把 握 具 有 较 长 名 称 的 农业 实体 
名 称 ， 发 挥 重要 作用 。 如 果 仪 提取 预 训练 语言 模型 
的 最 后 一 层 表示 ， 可 能 会 错过 这 些 更 利于 命名 实体 
识别 的 浅 层 信息 。 特 别 是 对 于 边界 模糊 的 农业 命名 
实体 识别 任务 ， 更 关键 的 词组 界定 信息 或 许 就 隐 含 
在 这 些 被 忽略 的 浅 层 骨 入 中 。 因 此 ， 只 使 用 最 后 一 
层 输 出 当 作 句子 表示 是 存在 一 定 缺 陷 的 。 

在 机 器 翻译 领域 ， Zhang 等 ' 提出 BERTJAM 
模型 对 BERT 多 层 进行 融合 。BERT-JAM 首先 给 模 
型 各 层 赋予 可 训练 的 权重 ,然后 利用 门 控 单 元 对 各 
JARRET. Ak, SuM Cheng 提出 一 种 
JEF Squeeze Fil Excitation "” 的 BERT 多 层 表示 加 权 
的 模型 SesameBERT， 在 句子 分 类 和 自然 语言 推断 
等 多 个 数据 集 上 有 提升 效果 。 但 在 命名 实体 识别 领 
域 针 对 预 训练 语言 模型 的 多 层 表示 融合 研究 较 少 。 

为 了 解决 农业 领域 中 存在 的 实体 识别 问题 ， 充 
分 挖掘 预 训练 语言 模型 内 部 不 同 维度 的 语言 学 信 
息 ， 本 研究 提出 一 种 结合 预 训练 语言 模型 和 递 进 式 
卷 积 网 络 的 命名 实体 识别 方法 ， 利 用 递 进 式 卷 积 区 
络 对 模型 各 层 表 示 进 行 聚合 ， 无 需 添加 外 部 信息 ， 
仅 使 用 卷 积 去 深度 利用 模型 多 层 表示 列 含 的 丰富 信 
息 。 由 于 采用 的 是 递 进 式 的 卷 积 ， 它 不 仅 保存 模型 
深层 输出 所 拥有 的 细 粒 度 语 义 信 息 ， 同 时 注重 浅 层 
的 粗 粒 度 信息 ， 在 更 好 地 把 握 实 体 名 称 的 长 度 界 定 
言 息 下 ， 将 繁杂 的 实体 作为 整体 ， 去 融合 和 探究 实 
体 处 于 句子 中 的 上 下 文 信息 与 位 置 ， 会 比 仅仅 通过 
细 粒 度 地 分 析 语 义 更 适合 如 农业 等 专业 领域 的 命名 
实体 识别 。Jiang 等 "阐述 由 于 大 型 深度 模型 很 大 
程度 上 依赖 于 全 局 自我 注意 块 而 会 产生 宛 余 的 信 
息 ， 同 时 从 侧面 证 明 卷 积 这 一 提取 特征 的 有 效 工 具 
可 以 与 自我 注意 块 忽略 的 信息 进行 互补 性 探究 。 将 


能 会 更 有 用 "”"。 若 在 使 用 时 只 提取 预 训练 语言 模 
型 的 最 后 一 层 表 示 ， 可 能 会 错过 更 利于 命名 实体 识 


预 训练 语言 模型 的 中 间 层 输出 依次 进行 卷 积 ， 可 以 
提取 原先 可 能 被 忽视 的 浅 层 特征 信息 ， 在 无 需 外 部 
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言 息 的 引入 下 ， 充 分 利用 已 使 用 的 计算 力 得 到 的 结 
果 来 增强 自然 语言 的 表示 和 做 入 。 实 验 结果 表明 ， 本 
研究 所 提 方 法 对 多 个 预 训练 语言 模型 均 有 效 ， 在 多 
个 命名 实体 识别 数据 集 上 的 准确 率 均 得 到 提升 。 


2 基于 递 进 式 网 络 的 表示 融合 模型 构 
建 与 训练 


本 研究 提出 一 种 结合 预 训练 语言 模型 和 递 进 式 
卷 积 网 络 的 命名 实体 识别 方法 ， 使 用 卷 积 操作 来 挖 


含 模型 全 层 的 信息 维度 ， 在 没有 增加 外 部 信息 的 情 
况 下 ,使 得 句子 表示 包含 更 丰富 的 信息 。 解 码 层 负 
责 对 表示 解码 ， 利 用 CRE) J a Fite A Ag Xt 
标签 之 间 的 关系 ， 并 利用 维特 比 算法 输出 预测 的 标 
签 序 列 。 


21 表示 层 


表示 层 用 来 将 自然 语言 序列 编码 为 向 量 表示 。 
在 表示 层 使 用 预 训练 语言 模型 编码 输入 句子 ， 可 以 


据 预 训练 语言 模型 所 有 编码 层 的 信息 ， 对 所 有 层 输 
出 集合 进行 递 进 形式 的 卷 积 ， 即 将 相 邻 每 两 层 卷 积 
结果 继续 与 集合 中 下 一 层 输出 编码 进行 卷 积 融合 ， 
直至 模型 最 后 一 层 。 将 最 终 融 合 编码 结果 作为 输入 
句子 的 表示 再 进行 后 续 命 名 实体 识别 解码 ， 方 法 模 
型 如 图 1 所 示 。 


Al 基于 递 进 式 网 络 的 表示 融合 模型 整体 框架 图 
Fig. 1 Overall framework ofthe representation fusion model 


based on progressive networks 


模型 结构 主要 包括 表示 层 、 递 进 式 卷 积 网 络 和 
解码 层 。 其 中 ， 表 示 层 利用 预 训练 语言 模型 对 输入 
句子 进行 编码 ， 将 自然 语言 转换 为 学 习 了 上 下 文 信 
息 的 能 入 表示 集合 。 递 进 式 卷 积 网 络 利用 卷 积 层 对 
获得 的 表示 集合 进行 聚合 ， 卷 积 模块 从 第 一 层 开始 
对 相 邻 两 层 卷 积 融 合 ， 融 合 结果 作为 新 的 聚合 表示 
继续 与 下 一 未 卷 积 层 进行 卷 积 融合 ， 故 称 之 为 递 进 
式 融 合 。 卷 积 直 至 表示 集合 的 最 后 元 素 ， 即 模型 得 
到 的 最 后 一 层 表 示 被 融合 。 该 操作 提取 不 同 维度 的 
语言 学 信息 ， 获 得 增强 的 句子 能 入 。 增 强 的 能 入 包 


获得 学 习 到 上 下 文 信息 的 艇 入 表示 集合 。 以 BERT 
为 例 ， 表 示 层 结构 如 图 2 所 示 。 其 中 ，Trm 表 示 
Transformer |" 的 Encoder 部 分 。 


o> Sil A 


图 2 预 训练 语言 模型 表示 层 

Fig. 2 Pre-trained language model presentation layer 

给 定 预 训练 语言 模型 PLM， 对 输入 序列 进行 编 
码 。 预 训练 语言 模型 为 多 层 Transformer 结 构 ， 因 
此 ， 可 以 得 到 句子 的 表示 集合 上 S， 如 公式 (1) 
所 示 。 

LS = PLM(S) ={ L,,L,,.... L,} (1) 

Kp, LeR™, ie {1, 2, 0, I 表示 预 训练 
语言 模型 第 i 层 编码 的 句子 表示 ; /是 预 训练 语言 模 
型 深度 ; R 为 实数 矩阵 集 ; n、h 分 别 表示 句子 长 度 
和 预 训练 语言 模型 隐 层 维度 。 

预 训练 语言 模型 不 同 层 编码 的 表示 侧重 点 各 不 
相同 ， 所 以 表示 层 获得 的 表示 集合 包含 诸如 短语 、 
词法 、 词 序 、 句 子 语义 等 多 个 维度 的 语言 学 信息 。 
因此 ， 表 示 集 合 LS 能 够 更 充分 地 表示 输入 句子 。 


2 递 进 式 卷 积 网 络 构建 


区 别 于 现 有 方法 ， 本 研究 设计 了 递 进 式 卷 积 网 
络 。 递 进 式 卷 积 网 络 深度 为 广 :， 每 一 层 结构 相同 , 


ChinaXiv 合 作 期 刊 


125 


202305.00204v1 


chinaXiv 


如 图 3 所 示 。 
聚合 表示 4R/ 
nei r 
d AR! 
anepi r : -= 


o o mR r 
£ 


预 训练 语言 模型 全 层 表示 集合 LS 


图 3 递 进 式 卷 积 网 络 结构 图 


Fig. 3 Network structure of progressive convolutional 

网 络 每 层 由 三 部 分 组 成 : 层 拼接 、 卷 积 层 和 归 
一 化 。 其 中 ， 层 拼接 是 将 前 一 层 的 输出 的 融合 表示 
4R R” 5 “AHURA AF ik A Le 及 ”拼接 起 来 得 
到 多 维度 混合 表示 MR'e R”, ie {1, 2, +, Io 
拼接 后 有 利于 下 一 步 对 两 者 进行 卷 积 操作 ， 如 公 
式 (2) 所 示 。 

MR’ = concat(AR'"',L,)=[AR‘™'; L] (2) 

卷 积 层 的 目的 是 实现 前 一 层 输 出 的 融合 表示 
4 有 R 和 当前 层 句子 能 入 无 的 融合 。 即 对 于 递 进 式 卷 
积 网 络 第 c 层 的 卷 积 层 ， 其 输入 为 MR"， 卷 积 核 为 
KeR”…”!,，w 和 4b 分 别 为 卷 积 核 的 长 和 宽 ， 输 出 为 
EseR”“。E 的 计算 过 程 如 公式 (3) 所 示 。 
E°=MR‘® k 


_w ,ob 
it 


E=S DS AR +k +LRo +k (3) 
os > 2 ( =y xit yj x eg? 


pepe yay 
2 27 Ff 2 


其 中 ，E‘eR"* 为 当前 卷 积 层 输出 ; LR, ,为 当 
前 层 的 句子 表示 x 行 y 列 的 元 素 ; BSW EME itj 
列 的 元 素 ; AR, ,为 4R 矩阵 x 行 y 列 的 元 素 。 

通过 层 连 接 和 卷 积 层 ， 可 以 保证 融合 前 后 句子 
嵌入 的 尺寸 大 小 不 变 。 同 时 相 较 于 融合 之 前 ， 融 合 
之 后 的 句子 向 入 提取 了 当前 层 的 特征 。 对 于 序列 中 
的 某 一 位 置 而 言 ， 卷 积 操作 可 以 使 得 其 学 习 到 上 下 
文 表示 的 特点 ， 并 且 其 学 习 到 的 上 下 文 范围 受到 卷 
积 核 尺 寸 的 影响 。 对 于 命名 实体 识别 而 言 ， 命 名 实 
体 是 具有 一 定 跨度 的 字符 序列 ， 对 于 命名 实体 中 的 


某 一 字符 ， 学 习 实 体 的 其 他 字符 的 表示 有 助 于 实体 
识别 任务 。 

归 一 化 层 的 目的 是 保证 当前 层 卷 积 后 的 句子 舰 
和 能够 与 卷 积 之 前 量 级 上 保持 一 致 ， 有 利于 下 一 层 
的 融合 ， 归 一 化 层 也 给 表示 带 来 非 线 性 变化 ， 提 高 
网 络 对 模型 的 表达 能 力 。 不 同 于 计算 机 视觉 领域 用 
批量 归 一 化 (Batch Normalization) 对 批量 里 的 不 
同样 本 的 同一 特征 做 归 一 操作 ， 本 研究 方法 利用 层 
归 一 化 (Layer Normalization) ， 针 对 单个 样本 的 不 
同 特征 做 归 一 操作 ， 不 会 破坏 同一 句子 上 下 文中 不 
同 词义 向 量 的 可 比 性 ， 更 适合 自然 语言 处 理 任务 , 
有 助 于 模型 训练 ， 避 免 过 拟 合 。 如 图 3 所 示 ， 给 定 
E， 其 归 一 化 值 4R 由 公式 (4) ~ (6) 计算 得 到 : 


u; (4) 
G, (5) 
ARs, = ©! (Es, - u,) +b (6) 


其 中 ,为 EF 第 i 列 的 平均 数 ; n 为 句子 长 度 ; 
0 为 第 i 列 的 方差 ' g& 和 2 是 可 训练 参数 。 可 以 看 
出 ， 该 归 一 化 方法 在 句子 艇 入 的 同一 隐 层 维度 上 进 
行 归 一 化 。 


2.3 解码 层 


解码 层 负责 将 2.2 节 得 到 的 聚合 分 布 表示 AR 
解码 为 对 应 的 标签 序列 。 为 了 获得 最 优 标 签 序 列 ， 
使 用 CRF >) 对 其 进行 解码 。 对 于 输入 的 句子 序列 8 
= [s> S” s,| ， 其 对 应 的 标注 序列 为 y= {y 
Vor tt, Vt, VEY, Y HMA AAA GIEA. BB 
么 由 公式 (7) 计算 条 件 概 率 。 

ee Žo 


p(yS)= (7) 
ee Zhen, 


其 中 ，@ 为 概率 矩阵 ，O, ,表示 标记 序列 中 第 ; 
个 位 置 为 y 的 概率 ; 4 是 状态 转移 矩阵 ，4，,, 表示 
由 标记 y 到 标记 ,的 概率 ; 产 是 对 于 输入 序列 S 而 
言 ， 所 有 可 能 的 标记 序列 集合 。 初 始 @ 由 通过 CRF 
中 的 全 连接 层 转化 得 来 ，4 则 由 CRF 模 型 随机 初始 
化 得 来 。 概 率 矩 阵 @ 和 转移 矩阵 4 共同 决定 如 何 先 
择 标 记 序列 ， 得 分 最 大 的 路 径 作为 最 终 的 结 
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2.4 训练 阶段 


公式 (7) 中 决定 最 终 标记 序列 的 QO 和 4 是 可 
学 习 参 数 ， 可 通过 对 模型 的 训练 得 到 。 训 练 阶段 的 
loss 损失 函数 选择 条 件 概 率 的 对 数 似 然 画 数 ， 如 公 
st (8) 所 示 。 

L(S,y)= -log(p(y|S)) (8) 

在 反问 传播 过 程 中 根据 损失 孔 数 来 不 断 调整 0 
和 4， 最 终生 成 约束 标签 先后 顺序 关系 的 转移 矩阵 
A; 本 研究 选择 Adam 优化 算法 学 习 模 型 参数 。 

当 学 习 到 0 与 4 窍 阵 后 ， 在 预测 阶段 ， 通 过 维 
特 比 算法 求解 条 件 概率 p OIS) 最 大 时 的 标记 序列 
y* 作 为 输入 序列 的 标注 ， 即 公式 (9)。 

y* = argmax p(ylS) (9) 


3 ”模型 有 效 性 验证 与 实验 设计 


为 验证 本 方法 的 有 效 性 ， 分别 选 择 预 训 练 
BERT, NEZHA 2 以 及 BERTwwnm 2 作为 模型 表 
示 层 。 这 些 模 型 均 是 具有 12 层 Transformer'" 结构 
的 基础 模型 。 将 输入 序列 通过 上 述 预 训练 语言 模型 
进行 上 下 文学 习 得 到 模型 对 应 的 表示 层 集合 ， 再 添 


是 在 现 有 的 农产品 本 体 知识 库 中 人 工整 理 收 集 数 
JE, 构建 农 产品 命名 实体 识别 数据 集 AgriNER。 本 
体 中 的 概念 是 对 实例 的 抽象 ， 指 向 某 一 类 性 质 相 同 
或 相近 的 实例 。 因 此 ， 本 研究 将 本 体 中 的 所 有 概 
念 、 实 例 统一 当 作 命 名 实体 ， 信 息 如 表 2 和 表 3 所 
示 ， 该 任务 识别 出 农产品 命名 实体 ， 并 将 其 分 为 
五 类 ， 分 别 是 农产品 类 别 (Product Class, PC). 
农产品 实例 (Product Instance，PI) 、 病 虫害 类 别 
(Disease and Pest Class, DPC) 、 病 虫害 实例 
(Disease and Pest Instance, DPI) 和 行政 区 划 
(Region, RI). 


#2 AgriNER 数据 集 统计 信息 
Table 2 AgriNER dataset statistics 


加 本 研究 提出 的 递 进 式 卷 积 网 络 模块 至 预 训练 语言 
模型 和 CRF 解 码 层 之 间 ， 得 到 增强 的 句子 聚合 表示 
层 进行 下 一 步 命 名 实体 识别 ， 观 察 其 评价 指标 。 


3.1 数据 获取 与 评价 指标 


在 公开 数据 集 上 ， 选 取 人 民 日 报 的 PeopleDaily 
命名 实体 识别 数据 集 和 微软 亚洲 研究 院 的 MSRA 命 
名 实体 识别 数据 集 。PeopleDaily 和 MSRA 数据 集 均 
将 命名 实体 分 为 人 名 、 地 名 、 组 织 名 三 类 。 数 据 集 
被 划分 为 训练 集 和 测试 集 ， 相 关 信息 如 表 1 所 示 。 

在 农业 领域 ,缺少 公开 标注 的 数据 集 ""， 于 

表 1 公开 命名 实体 识别 数据 集 统计 信息 
Table 1 Public Named Entity Recognition(NER ) 


dataset statistics 


统计 对 象 训练 集 / 个 “验证 集 / 个 “测试 集 / 个 ”总 数 /个 
句子 数量 5050 1682 1682 8414 
实体 数量 4351 1456 1449 7256 
农产品 类 别 157 35 38 230 
农产品 实例 1140 387 373 1900 
病虫害 类 别 103 33 22 158 
病虫害 实例 1099 406 372 1877 
行政 区 划 1852 615 644 3111 
表 3 AgriNER 标注 映射 表 
Table 3 AgriNER annotation mapping table 

实体 类 型 实体 首 字符 标注 实体 非 首 字符 标注 
农产品 类 别 B-Product-Class I-Product-Class 
农产品 实例 B-Product-Instance I-Product-Instance 
病虫害 类 别 B-DP-Class IDP-Class 
病虫害 实例 B-DP-Instance I-DP-Instance 
行政 区 划 B-Region-Instance I-Region-Instance 


实验 采用 BIO 标注 法 对 实验 数据 进行 标注 。 其 
中 ，B 表 示 实 体 的 开始 ， 即 命名 实体 的 首 字符 标注 
为 B; I 表示 实体 的 其 余部 分 ， 即 命名 实体 中 除 首 
字符 的 其 余 字 符 标 记 为 I ; O 表示 非 实体 部 分 ， 即 


数据 集 类 型 训练 集 /个 训练 集 /个 
句子 数量 20,864 4346 
PeopleDaily 
实体 数量 33,992 7707 
句子 数量 45,000 3442 
MSRA 
实体 数量 7559 6192 


句子 中 的 非 实体 字符 均 标 记 为 0。 

为 了 评价 方法 在 命名 实体 识别 任务 数据 集 上 的 
表现 ， 选 取 命 名 实体 识别 任务 常用 的 评价 指标 ， 包 
ERK, A ERRA FIE. FIE PA RA 
和 平均 数 ， 评 价 模型 的 整体 性 能 。 
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3.2 实验 环境 与 参数 设置 


实验 环境 如 表 4 所 示 ， 分别 以 BERT、NEZHA 
和 BERT-wwm 作 为 模型 表示 层 ， 由 于 构建 的 农业 语 
料 库 相对 公开 数据 集 规模 较 小 ， 该 模型 先 在 公开 数 
据 集 上 进行 实验 测试 ， 同 时 确定 卷 积 核 大 小 以 及 预 
训练 模型 等 超 参 数 。 

通过 多 次 实验 确定 模型 超 参 数 ， 如 表 5 所 示 。 
此 外 ,根据 表示 层 选 择 不 同 ， 训 练 轮 次 epoch 大 小 
不 同 。 其 中 除了 当 数 据 集 为 MSRA， 并 且 表 示 层 选 
用 BERT 时 ，epoch 设置 为 3， 其 余 实 验 epoch 
均 为 5。 

表 4 NER 实 验 环境 


Table 4 NER experimental environment 


操作 系统 Windows 10 
CPU 型 号 Intel Xemon CPU E5-1630 v4 @3.70 GHz 
GPU 型 号 Titan X 
Python 版 本 37 
Tensorflow 版 本 1.14 
内 存 大 小 64 GB 


#5 NER 实验 模型 超 参 数 
Table 5 NER experimental model hyperparameters 


参数 值 
最 大 序列 长 度 128 
批 大 小 32 
FJR 0.00005 
Dropout 失 活 率 0.5 
卷 积 核 大 小 5X5 


4 实验 结果 分 析 与 讨论 


4.1 公开 数据 集 实验 结果 分 析 


实验 均 分 别 重复 3 次 ， 取 平均 值 作为 实验 结 
果 ， 以 中 和 模型 参数 随机 初始 化 的 有 影响， 结果 如 
表 6 所 示 。 其 中 选取 的 BERTBiLSTM ”可 作为 
BERT 与 原先 深度 神经 网 络 进 行 结合 的 基线 模型 ， 
Tij Sesame |"! FI JAM 模型 是 采用 另外 两 种 多 层 
表示 聚合 模型 。 

从 表 6 中 可 以 发 现 ， 本 研究 提出 的 基于 递 进 式 
卷 积 网 络 的 命名 实体 识别 方法 在 PeopleDaily 和 MS- 
RA 数 据 集 上 的 书 值 均 高 于 其 他 模型 ， 并 且 其 表现 


表 6 模型 在 公开 数据 集 NER 试 验 结果 对 比 一 一 以 BERT 为 基 
础 预 训练 模型 


Table 6 Comparison of the NER experimental results on public 


datasets 一 based on BERT 


PeopleDaily MSRA 


ie 


模型 
P% R% Fm P% R% Fi% 


BERT 93.81 94.12 93.97 94.48 93.78 94.12 
Sesame 86.05 85.53 85.79 88.76 87.18 87.96 
JAM 90.25 90.88 90.57 90.47 91.52 90.99 


BERT- 
BiLSTM 


93.77 94.36 94.07 94.16 87.18 94.55 
本 文 模型 94.53 94.44 94.48 94.04 94.89 94.96 
TE: PARR, RAA ER, F AEA PAR YAE 
整体 优 于 Sesame 和 JAM 多 层 表 示 融 合 模型 。 相 较 
于 BERT 模 型 ， 本 方法 在 PeopleDaily 数 据 集 上 的 尺 
He Ft 0.51%, FE MSRA 数据 集 上 提升 0.84%。 实 
验 结 果 表 明 ， 本 方法 能 够 一 定 程度 上 增强 模型 对 自 
然 语 言 的 表示 能 力 ， 提 升 模型 在 命名 实体 识别 任务 
上 的 准确 率 。 

表 7 和 表 8 分 别 是 基于 NEZHA 和 BERT-wwm 
模型 的 实验 结果 。 可 以 看 出 ， 本 研究 的 递 进 式 卷 积 
网 络 融合 方法 在 NEZHA 和 BERT-wwm 上 有 显著 效 
果 。 其 中 ， 基 于 NEZHA 模 型 在 PeopleDaily 数 据 集 
上 互 提升 0.19%， 在 MSRA 数 据 集 上 已 提 升 0.23%; 
基于 BERT-wwm 语言 模 型 在 PeopleDaily 数据 集 上 
提升 0.24%， 在 MSRA 数据 集 上 提升 0.53%。 
从 实验 结果 可 以 看 出 ， 本 方法 不 仅 对 BERT 模 型 有 
效 ， 对 于 与 BERT 有 相同 结构 的 预 训练 语言 模型 有 
相同 的 作用 。 

411 对 不 同 表示 层 的 影响 分 析 

从 表 6~8 的 实验 结果 可 以 发 现 ， 本 方法 在 

R7 模型 在 公开 数据 集 NER 试验 结果 对 比 一 一 以 NEZHA 
为 基础 预 训 练 模型 


Table 7 Comparison of the NER experimental results on pub- 


lic datasets — based on NEZHA 


PeopleDaily MSRA 


模型 
PI% R% Fm PI% R% Fi% 


NEZHA 95.11 94.80 94.96 95.33 95.23 95.28 
Sesame 90.11 90.19 90.15 92.79 92.29 92.53 
JAM 92.73 92.58 92.65 93.59 93.52 93.55 
本 文 模型 94.92 95.37 95.15 95.21 95.82 95.51 
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表 8 模型 在 公开 数据 集 NER 试 验 结果 对 比 一 一 以 BERT- 
wwm 为 基础 预 训练 模型 


Table 8 Comparison of the NER experimental results on pub- 


lic datasets — based on BERT-wwm 


PeopleDaily MSRA 


型 


i 


ae 


PI% RI% F/I% PI% RI% Fi/% 


BERT-wwm 93.56 94.19 93.88 93.80 94.29 94.04 
Sesame 84.85 84.63 84.66 90.00 90.42 90.20 
JAM 91.02 90.64 90.82 92.04 92.99 92.51 

本 文 模型 ”94.01 94.23 94.12 94.55 94.59 94.57 


BERT 上 的 成 绩 提升 效果 明显 优 于 在 BERT-wwm 和 
NEZHA 模型 上 的 成 绩 提 升 ， 如 图 4 所 示 。 这 种 差 
异性 取决 于 语言 模型 自身 特点 : BERT-wwm 和 NE- 
ZHA 模 型 是 在 BERT 模 型 的 基础 上 ,采用 全 词 掩 码 
进行 改进 ， 并 且 NEZHA 在 注意 力矩 阵 中 添加 了 相 
对 位 置 编码 。 从 信息 论 的 角度 出 发 ，BERTwwm 和 
NEZHA 在 BERT 基础 上 的 优化 ， 增 强 了 模型 对 信 
息 的 编码 能 力 ， 从 而 降低 了 编码 过 程 的 不 确定 性 ， 
减少 了 表示 聚合 能 增强 的 信息 量 ， 因 此 三 者 通过 递 
进 式 卷 积 网 络 实现 的 表示 聚合 的 效果 提升 有 上 述 层 
REF. 


= 08 
= 
= 0.6 
E 
z 0.4 
ky 
"s | 加 
0 图 1 J 
PeopleDaily MSRA 


E BERT © BERT-wwm E NEZHA 

图 4 公开 数据 集 NER RER AA FAE 
Fig. 4 Comparison of F, values of different models in the NER 

experiment on the public datasets 

4.1.2 不 同 融合 方法 对 比 

从 实验 结果 中 可 以 发 现 ，Sesame 模 型 和 JAM 
模型 的 实验 结果 均 差 于 原 模型 ， 其 中 JAM 模型 在 
融合 解码 器 每 层 表示 时 只 简单 进行 线性 组 合 ， 更 多 


表示 融合 方法 的 核心 思想 均 是 通过 对 BERT 各 层 进 
行 加 权 ， 进 而 融合 加 权 后 的 各 层 分 布 式 表示 ， 将 权 
重 的 学 习 也 交付 给 模型 本 身 进 行 。 权 重 根据 BERT 
各 层 在 下 游 任务 数据 上 表现 能 力 ， 强 化 更 能 适应 任 
务 的 中 间 层 表示 ， 弱 化 不 重要 的 中 间 层 。 但 强化 或 
弱化 某 一 中 间 层 全 部 的 分 布 式 表示 ， 在 某 种 程度 上 
还 是 忽略 了 一 部 分 信息 。 而 本 研究 提出 的 融合 方法 
平均 保留 了 全 层 的 信息 ， 相 对 限制 了 模型 的 学 习 自 
由 度 ， 强 制 模型 重视 每 层 信息 ， 能 够 更 好 地 聚合 预 
训练 语言 模型 的 各 层 矢 入 ， 更 多 地 挖掘 模型 在 大 规 
模 语 料 上 学 习 到 的 语言 特性 。 
41.3 卷 积 操作 以 及 核 尺 寸 影响 

为 了 探索 卷 积 层 中 卷 积 操作 以 及 核 尺寸 对 于 模 
型 的 影响 ， 实 验 以 BERT 作为 表示 层 ， 进 行 了 当 卷 
积 核 尺 寸 为 5X768 的 实验 。 其 中 ，768 表示 BERT 
的 隐 层 维度 。 本 研究 选取 该 卷 积 核 尺寸 的 原因 在 
于 ， 在 分 类 等 自然 语言 处 理 任 务 中 ， 这 种 尺寸 的 卷 
积 核 有 较 好 的 效果 。 实 验 结果 如 表 9 所 示 ， 表 中 参 
数量 为 在 BERT 的 原 参 数量 110 M 的 增加 量 ， 工 表 
示 单 轮 次 训练 时 间 ， 表 格 第 一 行为 BERT 模 型 的 实 
验 记 录 。 

RO 实验 卷 积 操作 以 及 核 尺 十 影响 


Table 9 Convolution operations and kernel size effects 


PeopleDaily MSRA 


卷 积 核 尺 寸 参数 量 


FIN T,/min FIN T /min 


/ / 93.97 15 94.12 28 
5x5 300 94.48 18 94.96 30 
5X 768 46080 93.48 150 94.53 290 


实验 结果 表明 ， 小 尺寸 的 卷 积 核 更 适用 于 本 方 
法 。 首 先 ， 大 尺寸 的 卷 积 核 在 Ff 值 上 没有 提升 ， 说 
明 没 有 实现 有 效 的 表示 聚合 。 其 次 ， 由 于 卷 积 核 尺 
寸 的 增 大 ， 大 尺寸 的 卷 积 层 参 数量 更 大 ， 因 此 需要 
更 多 的 训练 时 间 。 所 以 ， 本 研究 提出 的 递 进 式 卷 积 
网 络 在 命名 实体 识别 任务 上 更 适合 采用 小 尺寸 卷 积 
核 。 与 BERT 模 型 相 比 ， 本 模型 未 有 显著 的 时 间 和 
空间 需求 增加 ， 可 见 增加 递 进 卷 积 模块 后 的 模型 空 


的 是 借鉴 门 控 网 络 调 节选 择 流向 下 一 层 的 信息 量 ， 
需要 自行 学 习 权重 ; Sesame 则 用 挤 压 融合 和 激励 操 
作 获 取 BERT 各 层 的 权重 因子 ,按照 权重 对 全 层 输 
出 进行 加 权 获 得 最 终 表 示 。 上 述 两 种 BERT 的 多 层 


间 复 杂 度 以 及 时 间 复 杂 度 在 可 承受 范围 。 
4.2 农产品 数据 集 实验 


由 4.1 节 实验 及 结果 分 析 可 以 知道 ， 以 预 训练 
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语言 模型 BERT 为 基线 的 模型 性 能 提升 最 有 效 ， 且 
卷 积 核 尺寸 对 模型 书 值 有 明显 作用 ， 因 此 ， 农 产品 
命名 实体 识别 以 BERT 为 基线 实验 ， 分 别 设置 不 同 
尺寸 卷 积 核 进 行 实验 以 分 析 本 方法 的 作用 ， 实 验 结 
果 如 表 10。 


表 10 AgriNER 数据 集 实验 结果 
Table 10 AgriNER experimental results 


尺寸 对 模型 影响 较为 明显 ， 当 卷 积 核 尺 寸 取 中 间 值 
5X5 时 ,模型 表现 最 佳 ， 稳 定性 最 强 。 因 此 可 以 得 
出 结果 ， 本 方法 能 够 有 效 地 增强 预 训练 语言 模型 对 
于 命名 实体 的 表示 和 识别 能 力 ， 且 卷 积 核 尺寸 不 应 
当 过 大 或 过 小 。 

表 11 AgriNER 数据 集 各 类 实体 NER 实验 三 值 比较 


Table 11 Comparison of F, values for NER experiments of vari- 


ous entities on the AgriNER datasets 


模型 PI% RI% F /% 
BERT 90.00 83.09 85.96 实体 类 别 
模型 
本 文 模型 (3X3) 88.73 86.13 86.69 PC PI DPC DPI RI 
本 文 模型 (5X5) 88.72 90.45 89.57 BERT 53.73 91.88 90.91 94.61 98.69 
本 文 模型 (7X7) 87.68 89.19 88.41 本 文 模型 (3X3) 58.46 92.20 89.80 94.22 98.78 


4.21 农产品 命名 实体 识别 实验 结果 分 析 

实验 发 现 ， 本 方法 相 比 于 传统 方法 能 够 显著 提 
升 模型 R 和 已 值 。 首 先 ， 当 卷 积 核 尺 寸 为 SXS 时 ， 
局 值 提升 最 大 ， 且 当 卷 积 核 尺 寸 为 3X3 I, FIE 
最 小 ， 但 是 优 于 传统 方法 。R 在 公开 数据 集 上 也 表 
现 出 同样 情况 。 其 次 ， 可 以 发 现 本 方法 对 P 存 在 影 
响 。 当 卷 积 核 尺寸 越 大 时 ，P 值 越 小 ， 但 是 降低 幅 
度 小 于 RR 的 提升 幅度 。 
4.2.2 不 同类 别 命 名 实体 上 的 表现 分 析 

为 了 分 析 模 型 在 不 同类 别 命名 实体 上 的 表现 ， 
本 研究 统计 了 模型 在 AgriNER 数据 集 上 各 个 实体 类 
别 的 评价 指标 ， 发 现 R 和 P 情 况 与 值 相似 ， 故 选 
取 F 值 进行 说 明 。F 值 统计 结果 如 表 11 所 示 ， 传 
统 方法 BERT 在 各 类 实体 上 的 指标 值 波动 较 大 
(53.73~98.69) ， 且 对 行政 区 划 实 体 已 值 最 高 X 
农产品 类 别 书 值 最 低 。 其 次 ， 本 方法 当 卷 积 核 尺寸 
为 5X5 时 ,PF 值 在 各 类 实体 上 的 指标 波动 最 小 
(71.60~98.87) ， 且 对 行政 区 划 实 体 书 值 最 高 X 
农产品 类 别 实体 已 值 最 低 。 此 外 ， 对 于 所 有 模型 ， 
对 农产品 类 别 实体 的 巴 值 都 是 最 低 的 。 造 成 这 种 情 
况 的 原因 是 农产品 类 别 和 农产品 实例 的 实体 相似 度 
较 高 。 比 如 “ 驶 豆 类 ”是 一 个 农产品 类 别 ， 包 括 的 
农产品 实例 有 “ 聋 豆 ”“ 鲜 豌豆 米 ”“ 和 荷兰 豆 ” 等 。 
同样 的 ， 病 虫害 类 别 的 五 值 也 整体 低 于 病虫害 实例 
下 值 也 是 相同 原因 。 


本 文 模型 (5X5) 71.60 92.86 88.89 95.64 98.87 
本 文 模 型 (7X7) 64.20 91.21 93.88 94.22 98.55 


注 :农产品 类 别 (Product Class, PC) 农产品 实例 (Product Instance, 
PI) JAE FE Fill (Disease and Pest Class, DPC) .病虫害 实例 (Disease 
and Pest Instance,DPIT) 和 行政 区 划 (Region ,RI) 


4.2.3 分析 标记 数据 对 实验 评估 性 能 影响 

由 精度 的 公式 P=TP/ (TP+FP) 出 发 ， 分 析 实 
验 结 果 的 TP (真正 例 ) 和 FP ( 假 正 例 )。 统 计 发 现 
与 BERT 模 型 相 比 ， 本 模型 在 TP 上 与 BERT 模 型 未 
有 明显 数量 差异 ， 三 次 实验 中 TP 数量 差距 均 在 10 
之 内 ， 约 占据 平均 TP 数据 量 的 0.7%， 而 在 FP 上 比 
BERT 模 型 统计 量 多 于 10， 约 占据 平均 FP 数据 量 的 
25%， 从 而 导致 精度 P 在 数值 上 低 于 BERT 模 型 。 
对 假 正 例 进行 人 为 观察 ， 发 现 模型 测 得 的 假 正 例 实 
体 有 部 分 是 属于 自然 语言 实体 ， 但 未 出 现在 测试 集 
标签 中 。 由 于 在 对 本 体 农 业 知 识 库 进 行 标注 时 对 名 
子 进行 随机 字符 蔡 换 ， 使 得 数据 集 有 一 定 噪 声 。 类 
比 非 舰 套 公 开 数 据 集 MSRA 也 是 如 此 。 可 能 本 模型 
过 多 地 融合 了 浅 层 信息 ， 使 得 实体 识别 灵敏 度 过 
高 ， 未 匹配 上 标签 集 给 定 的 实体 名 称 或 长 度 。 同 时 
从 侧面 说 明了 标记 质量 与 策略 对 模型 评估 的 重 
要 性 。 


5 结 it 


本 研究 针对 现 有 基于 预 训练 语言 模型 的 命名 实 
体 识 别 方法 名 视 预 训练 语言 模型 内 部 各 层 本 身 列 会 


通过 实验 结果 分 析 可 看 出 ， 本 方法 不 仅 优 于 传 
统 基于 BERT 的 命名 实体 识别 方法 ， 也 优 于 当前 基 
于 BERT 模 型 的 其 余 各 种 融合 方法 。 其 中 ， 卷 积 核 


语言 不 同 层次 的 丰富 信息 ， 仅 使 用 模型 最 后 一 层 表 
示 输 出 ， 对 模型 利用 不 充分 的 问题 ， 提 出 递 进 式 卷 
积 网 络 ， 聚 合 预 训练 语言 模型 所 有 编码 层 答 出 的 名 
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子 表示 。 方 法 利用 递 进 式 卷 积 操作 提取 语言 模型 列 
含 的 不 同 维度 的 语言 信息 ， 同 时 注重 模型 浅 层 和 深 
层 信 息 ， 使 模型 在 拥有 深度 语义 信息 的 同时 ， 融 合 
对 农业 实体 名 称 有 利 的 粗 粒 度 信息 ， 增 强 模型 对 名 
子 实体 的 表示 能 力 。 相 较 于 BERT 模 型 ， 本 文 方法 
在 PeopleDaily 数 据 集 上 的 五 提 升 0.51%， 在 MSRA 
BEAR E F FETT 0.84%, TE AgriNER ği E E F te 
升 3.61%。 实 验 结果 表明 ， 本 方法 不 仅 在 公开 数据 
集 上 能 够 有 效 提升 模型 准确 率 ， 同 时 在 农业 领域 的 
实际 应 用 中 能 够 更 有 针对 性 地 定位 实体 位 置 ， 一 定 
程度 上 解决 专业 名 词 的 识别 边界 模糊 ， 识 别 率 不 高 
的 问题 。 同 时 验证 了 小 尺寸 卷 积 核 的 有 效 性 ， 结 
表明 利用 递 进 式 网 络 去 增强 表示 从 而 提升 命名 实体 
识别 准确 率 是 有 效 的 。 

但 在 非 嵌 套 型 实体 名 称 的 长 度 上 ， 模 型 融合 了 
过 多 浅 层 信息 ， 在 上 下 文 语 义 信 息 的 获取 上 还 有 提 
升 空间 。 由 于 语义 信息 也 可 作为 实体 名 称 长 度 截 断 
点 选取 的 重要 参考 信息 ， 在 以 后 的 研究 中 可 以 进 一 
步 思 考 如 何在 保持 浅 层 信息 融合 的 同时 对 深层 信息 
进行 增强 。 


利益 冲突 声明 : 本 研究 不 存在 研究 者 以 及 与 公开 
研究 成 果 有 关 的 利益 冲突 。 
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Progressive Convolutional Net Based Method for 
Agricultural Named Entity Recognition 


JI Jie™, JIN Zhou, WANG Rujing’”, LIU Haiyan'’, LI Zhiyuan™ 


(1. Institute of Intelligent Machinery, Hefei Institutes of Physical Science, Chinese Academy of Sciences, Hefei 230031, 
China; 2. University of Science and Technology of China, Hefei 230026, China) 


Abstract: Pre-training refers to the process of training deep neural network parameters on a large corpus before a specific task model 
performs a particular task. This approach enables downstream tasks to fine-tune the pre-trained model parameters based on a small 
amount of labeled data, eliminating the need to train a new model from scratch. Currently, research on named entity recognition 
(NER) using pre-trained language model (PLM) only uses the last layer of the PLM to express output when facing challenges such as 
complex entity naming methods and fuzzy entity boundaries in the agricultural field. This approach ignores the rich information con- 
tained in the internal layers of the model themselves. To address these issues, a named entity recognition method based on progressive 
convolutional networks has been proposed. This method stores natural sentences and outputs representations of each layer obtained 
through PLM. The intermediate outputs of the pre-trained model are sequentially convolved to extract shallow feature information that 
may have been overlooked previously. Using the progressive convolutional network module proposed in this research, the adjacent 
two-layer representations are convolved from the first layer, and the fusion result continues to be convolved with the next layer, result- 
ing in enhanced sentence embedding that includes the entire information dimension of the model layer. The method does not require 
the introduction of external information, which makes the sentence representation contain richer information. Research has shown that 
the sentence embedding output of the model layer near the input contains more fine-grained information, such as phrases and phrases, 
which can assist with NER problems in the agricultural field. Fully utilizing the computational power already used, the results ob- 
tained can enhance the representation embedding of sentences. Finally, the conditional random field (CRF) model was used to gener- 
ate the global optimal sequence. On a constructed agricultural dataset containing four types of agricultural entities, the proposed meth- 
od's comprehensive indicator F, value increased by 3.61% points compared to the basic BERT (Bidirectional Encoder Representation 
from Transformers) model. On the open dataset MSRA, the F, value also increased to 94.96%, indicating that the progressive convolu- 
tional network can enhance the model's ability to represent natural language and has advantages in NER tasks. 

Key words: agriculture named entity recognition (NER); pre-trained language model (PLM); convolutional net; representation 


aggregation; deep learning 
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